More Agents Is All You Need
https://scrapbox.io/files/662f062124cba800241c10c9.png
論文情報
タイトル:More Agents Is All You Need
発行日:2024年2月
著者:Junyou Li et al
所属:Tencent Inc.
論文のポイント
これまで分かったこと:
LLM-Debate
複数のエージェントが算術タスクを議論することで、性能が上がる
https://scrapbox.io/files/6630406cbb60cf0023077292.png
この論文で分かったこと
LLMの性能は、エージェントの数(アンサンブルサイズ)を増やすことで、さまざまなタスクで向上することが示された。
https://scrapbox.io/files/6632d8ea777848002393cc96.png
驚くべきことに、小規模なLLMが大規模なLLMと同等以上の性能を発揮できることが明らかになった。
https://scrapbox.io/files/66304a472c5fc40024d18729.png
https://scrapbox.io/files/6632d8c0534c990024b47817.png
既存の手法と今回の手法を組み合わると、おおむね性能が上がった
https://scrapbox.io/files/6632db100ba4970024469429.png
https://scrapbox.io/files/6632df1ab6cc8300255ae107.png
temperatureやP値を変えても、サンプル数上げると性能いいという同じ結果に
https://scrapbox.io/files/6632e60c3a2f2f00254f0c56.png
https://scrapbox.io/files/663443c19d09600023f1f386.png
が、難しくなりすぎる(I = 400)と、モデルの限界を越え、下がってくる
https://scrapbox.io/files/663444a59353fd002410df8d.png
ステップ数が多くなればなるほど、性能が上がる
https://scrapbox.io/files/663460ff775d64002428943d.png
複数ステップの推論が必要なタスクで、推論エラーの蓄積による正解率低下を抑えた
https://scrapbox.io/files/663445f99653a60024946b42.png
タスクの事前確率が高いほど、性能が高くなる。
https://scrapbox.io/files/66344bb09353fd00241100ee.png
💡事前確率とは、例えば4択のタスクなら25%ということ。事前確率が低いほど、タスクの難易度が高くなる、つまり、正解を選ぶのがより難しくなる。
つまり、低確率のタスクを複数の高確率のサブタスクに分解し、階層的に取り組むことでパフォーマンスを向上させることができる。
問題が複雑で探索空間が広い場合は、正解の事前確率が低い。
こういう時に、問題を複数のサブタスクに分割し、階層的にAIエージェントをサンプリングさせて回答を出すことにより、性能が上がったということ。 さらに、GPT-3.5とGPT-4を混ぜて、粗い解を求める段階ではGPT-3.5-Turboを使い、詳細な解を求める段階ではより性能の高いGPT-4を使うことで、より性能が上がった。
https://scrapbox.io/files/66345e0750d150002396e4c0.png
論文を読んで感じたこと
討論で戦わせるのではなく、多くの人の意見を集める(サンプリング)することには意味がある。
実際、性能が良いモデルより、結果が良くなっている。
問題が複雑でステップ数が多く、探索空間が広い時は、自ずと正解を出すのが難しくなり(事前確率が低い)、ステップ毎の推論エラーの蓄積により、性能が落ちる
そのため、タスクを分割して、サブタスク内で正解を出す事前確率を高め、階層的にAIエージェントに働かせる手法が、かなり効果的であった。 概要
我々は、単純にサンプリングと投票の手法を用いることで、大規模言語モデル(LLM)の性能が、インスタンス化されたエージェントの数に応じてスケールすることを発見した。また、この手法は、LLMをさらに強化するための既存の複雑な手法に対して直交しているが、強化の度合いはタスクの難易度に相関している。我々は、この発見の存在を検証し、その発生を促進できる特性を調査するために、幅広いLLMベンチマークで包括的な実験を行った。我々のコードは、Gitで公開されている。
1. はじめに
大規模言語モデル(LLM)は、言語生成、理解、推論など、さまざまなアプリケーションで驚くべき能力を発揮しているが、複雑なタスクに直面した場合、正確な回答を提供するのに苦労している。LLMの性能を向上させるため、最近の研究の一部は、アンサンブル手法(Self-Consistency論文、Knowledge Fusion論文)や複数のLLMエージェントの協調フレームワーク(Du et al.、2023; Wu et al.、2023)に焦点を当てている。 これらの研究では、LLMの性能を向上させるために複数のLLMエージェントが使用されている。例えば、LLM-Debate(Du et al.、2023)は、ディベートの形式で複数のLLMエージェントを採用している。複数のエージェントが算術タスクの最終的な答えを「議論」できるフレームワークを構築することで、推論性能が向上している。これにより、単一のエージェントを使用する場合と比較して性能が向上することが示されている。同様に、Self-Consistencyは、複数の思考連鎖を生成し、最も自己整合性の高いものを最終的な答えとして選択する。CoT (Chain-of-Thought)が単一の思考連鎖を採用するのに比べ、より多くの思考連鎖を関与させることで、推論性能が向上する。 偶然にも、これらの研究のデータ分析から、特定の問題において、ある程度、複数のエージェントを組み合わせる効果が、パフォーマンスの向上につながることがわかる。例えば、LLM-Debate(Du et al.、2023)の3.3節の表10では、著者らは予備的な曲線を報告している。数学の問題の正確さは、討論エージェントの数とともに増加する(エージェントの数は単に1から7に増加しただけだが)。
https://scrapbox.io/files/6630406cbb60cf0023077292.png
また、Wang et al.(2023b)では、より多くの思考連鎖パイプライン(「サンプリングと周辺化」デコーディング手順と呼ばれる)を含めることで、パフォーマンスが向上する可能性がある。我々は、エージェントの数を単純に増やすことで、LLMの性能が向上する可能性があることを認識している。しかし、「生の」エージェントのスケーリング特性は、これらの研究の焦点ではないため、考慮されるシナリオ/タスクと実験は限定的である。これまでのところ、この現象に関する専門的な詳細な研究はない。そこで、自然な疑問が生じる。この現象は一般的に存在するのだろうか?
上記の研究課題に答えるため、我々はLLMエージェントのスケーリング特性に関する初の包括的な研究を行った。複数のエージェントの可能性を掘り下げるために、我々は最もシンプルなサンプリングと投票の手法を提案する。これは2つの段階を含む。
まず、タスクのクエリ、つまりLLMへの入力を、単一のLLM、または複数のLLMエージェントの協調フレームワークに反復的に与えて、複数の出力を生成する。
その後、多数決を用いて最終結果を決定する。この手順はCoT-SCの手順に触発されたものだが、複雑なCoTパスの設計に依存していない。実際、我々の評価で示すように、CoTベースの手法をさらに強化するためのプラグインとして使用することができる。
実験は、推論と生成をカバーするさまざまなデータセットで、異なるサイズのさまざまなLLMを使用して行われた。その結果、LLMの性能は、エージェントの数、つまりアンサンブルサイズを増やすことで、一般的にさまざまなタスクで向上することが示された。驚くべきことに、我々の手法により、小規模なLLMが大規模なLLMと同等以上の性能を発揮できることが明らかになった。図1に要約されているように、後のセクションでさらに詳しく説明する。
https://scrapbox.io/files/66304a472c5fc40024d18729.png
さらに、我々の手法を他の既存の手法と組み合わせることで、さらなる改善が得られることがわかった。複雑な手法の性能と比較した結果、ほとんどの場合、我々の手法のみを採用することで同等の性能を達成できることがわかった。これは、追加の手作業によるプロンプト設計や複雑な協調フレームワークを必要とせずに、同等の性能を達成できることを意味している。
さらに、実験結果から、性能向上の効果と、取り組む問題の難易度との間に相関関係があることがわかった。これらの性能向上の背景にある理由を理解するために、我々は問題の難易度が我々の手法の有効性に与える影響を分析する。
難易度を3つの次元に分類する。固有の難易度、推論ステップの長さ、正解の事前確率である。一連の実験を通じて、これらの次元を調整し、それぞれの効果を独立して観察する。いくつかの特性を観察・要約し、それに基づいて、「より多くのエージェント」の力を引き出すことができる最適化戦略をさらに開発する。
我々の貢献は以下の通りである。
LLMによってインスタンス化された生のエージェントのスケーリング特性に関する最初の系統的研究を提示した。サンプリングと投票の最もシンプルな方法を用いて、エージェントの増加とともに性能がスケールすることを発見した。
我々の手法とLLMの可能性を刺激する既存の複雑な手法との互換性を探り、我々の手法がこれらの手法を強化し、さらなる性能向上を達成できることを明らかにした。
異なる難易度の問題に対する我々の手法の有効性を分析し、背後にある特性を抽出した。それに基づいて、「より多くのエージェント」の発生を促進できるさらなる最適化手法を提案した。
2. 関連研究
関連研究は、以下の3つに分類できる。1)LLMのセルフアンサンブル(Wang et al.、2023b)は、同種のLLMからの複数の出力を活用して最終的な答えを組み立てようとするもの。2)異種LLMのアンサンブルは、さまざまなダウンストリームアプリケーションにおける性能を向上させるために、教師あり学習を通じて異種LLMを組み合わせることに焦点を当てている。3)複数のLLMエージェントの協調は、LLMエージェント間の相互作用によって性能を向上させる。以下、これらの研究について議論する。
LLMセルフアンサンブル
CoT-SC(Wang et al.、2023b)は、多様なchain-of-thought(CoT) (Wei et al.、2022)プロンプトを利用して、単一のLLMから様々な推論プロセスを引き出し、多数決によって最終的な答えを選択する。Fu et al.(2023); Li et al.(2023b); Cobbe et al.(2021b); Thoppilan et al.(2022); Lin et al.(2023)は、CoT-SCの拡張と見なすことができる。これらの手法は主に推論タスクに焦点を当て、CoTとの互換性のみを調査している。一方、我々の手法は、推論タスクだけでなく生成タスクにおいても有効性を検証している。また、我々の手法は、CoTを含むプロンプトエンジニアリングや、複数のLLMエージェントの協調など、より広範な手法と互換性がある。ごく最近、Lu et al.(2024)は、チャットシナリオのために複数のLLMを利用するBlendedという手法を提案している。対照的に、Blendedは複数のLLMの力を利用することに焦点を当てているのに対し、我々の焦点はより多くのLLMを追加することによるスケーリングの傾向にある。また、Blendedは人間のアノテーションによって評価される限定的なチャットシナリオにのみ適用される。さらに、我々は他の手法との直交性を探求している。
異種LLMアンサンブル
Wan et al.(2024)は、複数の異種LLMを単一のモデルに蒸留し、これらのLLMのそれぞれを上回る教師ありLLM融合フレームワークを実施している。Jiang et al.(2023)は、複数の異種LLMに基づく教師あり学習アンサンブルフレームワークを導入している。Chen et al.(2023b)は、出力品質が適切であると判断された時点で停止するLLMのシーケンシャル推論手法を提案している。Wang et al.(2023a)は、教師あり学習を通じて、異なる知識ドメインを持つモデルからの出力を統合することで、専門家の融合問題に取り組んでいる。Shnitzer et al.(2023)とLu et al.(2023)は、報酬に導かれたルーターを訓練することで、新しいタスクに最も適したLLMを選択している。これらのアプローチは主に教師あり学習を採用しており、タスク固有のアノテーションされたデータを必要とし、一般化能力が限られている。対照的に、我々の手法は教師なしであり、追加の訓練データを必要としない。
複数のLLMエージェントの協調
多様なLLMエージェント間の相互作用アーキテクチャを探求する研究があり、LLM間の静的なディベート方式の関わり合いを用いて推論を強化している(Du et al.、2023; Liang et al.、2023; Xiong et al.、2023)。Liu et al.(2023)は、動的なアーキテクチャにおいて、エージェントが複数のラウンドにわたって相互作用できるようにしている。 Li et al.(2023a); Hong et al.(2023); Wu et al.(2023); Chen et al.(2023c;a)は、LLMアプリケーションの開発やタスク解決能力の向上を可能にするいくつかのマルチエージェントフレームワークを提供している。しかし、これらの手法は主にLLMエージェント間の相互作用構造に焦点を当てており、エージェントの数と性能の関係には焦点を当てていない。我々は、代表的な手法(Du et al.、2023; Shinn et al.、2023)を選択し、我々の手法と組み合わせることで、さらなる性能向上を達成している。
3. 手法
本節では、サンプリングと投票の2段階のプロセスを通じて実装される我々の手法を紹介する。我々の手法の概要を図2に示す。
https://scrapbox.io/files/6631c4d44a9c10002e10606e.png
サンプリング
タスクのクエリをxで表し、LLMをMで表す。この段階では、LLMのMをN回クエリすることで、各サンプルをs = M(x)で表現するN個のサンプルを生成する。あるいは、他の手法fMをN回実行して統合し、各サンプルをs = fM(x)で表現する。この段階の最後に、サンプルのセットS = {s1, s2, ..., sN}を得る。
投票
最終的な答えをAで表す。この段階では、多数決を用いて、応答サンプルセットSを最終的な答えAに統合する。これには、他のサンプルに対する各サンプルの累積類似度を計算することが含まれ、V(si) = ΣNj=1,j̸=i sim(si, sj)で表される。コード生成のようなオープンエンドの生成タスクでは、BLEUスコア(Papineni et al.、2002)を用いて類似度を定量化する。逆に、多肢選択問題のような閉鎖型のタスクでは、出現頻度によって類似度を測定する。累積類似度が最も高いサンプルを最終的な答えとして選択し、A = arg maxsi∈S V(si)で表す。 サンプリングと投票の完全なプロセスは、アルゴリズム1に記述されている。
https://scrapbox.io/files/6631c510ff05d600262b649f.png
4. 実験設定
実験設定(本節)と評価(次節)を分けて、最も関連性の高い研究と比較したシナリオ/タスクのカバー範囲(我々の研究の包括性を検証するため)、採用したバックボーン言語モデル(我々の研究の適用可能性を検証するため)、我々の手法と組み合わせた手法(我々の研究の互換性と直交性を検証するため)を紹介する。
タスク
我々の手法は以下のタスクで評価される。
算術推論
Wang et al.(2023b); Fu et al.(2023); Du et al.(2023)と同様に、テストセットの1つとしてGSM8K(Cobbe et al.、2021a)を選択した。 さらに、Wu et al.(2023)で使用されているより難しいMATHデータセット(Hendrycks et al.、2021b)を選択した。 一般的な推論
Du et al.(2023); Jiang et al.(2023)と同様に、MMLU(Hendrycks et al.、2021a)を選択した。さらに、Du et al.(2023); Zhang et al.(2023)で使用されているチェスの状態追跡タスク(Chess)のデータセットを選択した。 コード生成
Liu et al.(2023)と同様に、HumanEval(Chen et al.、2021)を選択した。我々の手法を実装するために、生成された候補回答のすべてのペア間のBLEUスコア(Papineni et al.、2002)を計算する。累積BLEUスコアが最も高い回答を最終出力として選択する。 採用した言語モデル
我々は、Llama2(Touvron et al.、2023)とGPTシリーズ(OpenAI,2022)から、異なるスケールの言語モデルを使って我々の手法を評価する。具体的には、アラインメント技術によって会話のユースケースに最適化された、モデルサイズが13Bと70Bのパラメータである2つのバージョンのLlama2-Chatを評価する。さらに、GPT-3.5-TurboとGPT-4も評価に含める。 我々の手法で強化された手法
我々の手法の比較可能性を調べるために、2つの異なるカテゴリーからさまざまな典型的な手法と我々の手法の統合を研究する。
プロンプトエンジニアリング
包括的な実験を行うために、さまざまなプロンプトエンジニアリング手法を考慮する。CoT (Chain-of-Thought)、Zero-Shot CoT、Solo Performance Prompting(SPP)(Wang et al.、2023c)などのより洗練された手法を評価する。当初、これらの手法は単一のLLMクエリで適用された。次に、クエリ数を増やし、多数決を用いて最も一貫性のある回答を最終的な応答として決定する。 複数のLLMエージェントの協調
LLM-Debate(Du et al.、2023)をDebateと表記し、自己反省(Shinn et al.、2023)をReflexionと表記して選択する。これらの手法の中で、我々は反復的にこれらの手法を操作することで複数のサンプルを生成し、多数決を用いて最終的な答えを導き出す。 https://scrapbox.io/files/6632d7e995bf0300242df6a0.png
具体的には、我々の手法の有効性は、10回の独立した実行の結果を平均することで評価される。各実行では、最大限の利得を得るためにアンサンブルサイズを40までスケールアップする。しかし、我々の手法をDebate(Du et al.、2023)と統合する際は、通信アーキテクチャによって導入される多大な計算オーバーヘッドのため、アンサンブルサイズを10に制限している。詳細な実験設定は付録Aで提供される。
5. 実験結果
5.1. 一般化可能性
表2と図3は、我々の手法が、アンサンブルサイズを増やすことで、すべてのタスクとLLMにわたって一般的に性能を向上させることを示している。
https://scrapbox.io/files/6632d8ea777848002393cc96.png
具体的には、算術推論タスクでは、GSM8Kで12%から24%、MATHで6%から10%の精度向上が見られる。一般的な推論タスクでは、Chessで1%から4%、MMLUで5%から11%の精度向上が見られる。コード生成タスクでは、HumanEvalで4%から9%の精度向上が見られる。驚くべきことに、我々の手法により、小規模なLLMが、単にアンサンブルサイズをスケールアップすることで、大規模なLLMを上回る性能を発揮できる。例えば、強化されたLlama2-13Bモデルは、GSM8Kデータセットで59%の精度を達成し、54%のスコアを出すLlama2-70Bモデルを上回る。
https://scrapbox.io/files/6632d8c0534c990024b47817.png
5.2. 互換性
表3は、我々の手法を他の手法と統合することで、これらの手法が異なる実装を持つにもかかわらず、さまざまなLLMとタスクにわたって性能をさらに向上させることができることを示している。
https://scrapbox.io/files/6632db100ba4970024469429.png
具体的には、算術推論タスクでは、我々の手法はこれらの手法をさらに改善し、GSM8Kデータセットで10%から21%、MATHデータセットで1%から15%の向上をもたらしている。一般的な推論タスクでは、他の手法との統合は、Chessタスクで1%から13%、MMLUタスクで1%から11%の性能向上を達成するのが一般的である。コード生成タスクでは、他の手法と組み合わせた場合、2%から7%の利得が得られる。 しかし、Llama2-13BとLlama2-70Bモデルを用いてDebate手法と統合した場合に、2つの顕著な例外が観察された。これは失敗例となった。この性能の不調は、主に、討論プロセスの際に他のエージェントの回答を参照することで生成されるノイズに起因している。複数のエージェントからの入力を組み込んだ合成応答は、コードロジックの一貫性を乱し、観測された性能の低下につながる。
💡Llama2でのAgentのDebate手法では、他の回答のノイズに引っ張られて性能が思ったより上がらなかったと。性能が低い人が群れて議論しても、無意味ということか。(辛口) すべての精度曲線は付録Bに掲載されている。
https://scrapbox.io/files/6632deba7960c00024e2c35c.png
https://scrapbox.io/files/6632df1ab6cc8300255ae107.png
5.3. 有効性
表3から、我々の手法は、Llama2-13BとLlama2-70Bを用いたChessタスクを除いて、スタンドアロンのケースで他の手法を上回ることがわかる。 https://scrapbox.io/files/6632e49eb3e10c0025bb2b1a.png
さらに、表3のデータに基づいて、各強化手法の平均性能ランキングを様々なタスクにわたって計算した結果を表4に示す。注目すべきは、追加のプロンプトや複雑なLLM協調フレームワークを必要とせずに、我々の手法がさまざまなLLMとタスクにわたって最高の平均ランキングを達成していることである。
https://scrapbox.io/files/6632e52f58df660023e8511f.png
5.4. 頑健性
我々は、最終的な性能に対するさまざまなハイパーパラメータの変更の影響を評価するためにアブレーション研究を行った。実験は、GPT-3.5-Turboモデルを用いて、温度T (Ficler & Goldberg, 2017)と核確率p (Radford et al.、2019)を変更して、20回の実行の平均で行われた。図4に示すように、これらのハイパーパラメータの変動にもかかわらず、アンサンブルサイズをスケールアップすることで、異なるタスクにわたってLLMのパフォーマンスが一貫して向上する。 https://scrapbox.io/files/6632e60c3a2f2f00254f0c56.png
6. 性能向上の理解
表2は、我々の手法の有効性がタスクの難易度によって異なることを示している。本節では、制御された実験を通じて、背後にある特性を理解することを目的とする。
分析を開始するために、難易度が増加する2つのデータセット、すなわちGSM8KとMATHを選択し、相対的な性能向上を計算する。相対的な性能向上ηは次のように与えられる。η = Pm−PsPs ここで、PmとPsは、それぞれ我々の手法と単一のLLMクエリによる性能(精度)である。結果は表5に示されている。 https://scrapbox.io/files/663443c19d09600023f1f386.png
相対的な性能向上は、タスクの難易度が増すほど顕著になることに注目すべきである。具体的には、同じタスクの中で、小さなモデルであるLlama2-13Bは28%から200%の利得を得ているが、GPT-3.5-Turboでは8%から16%の利得しか得られていない。さらに、より難しいタスクであるMATHでは34%から200%の利得が得られるのに対し、より易しいタスクであるGSM8Kでは16%から69%の利得しか得られない。
この相関関係をさらに詳細に分析するために、与えられたタスクの難易度を3つの直交する次元に分類する。
1)タスクの固有の難易度
2)タスクを解くために必要なステップ数
3)正解の事前確率である。
これらの次元を調査するために、各次元を分離できる実験を行う。そして、各次元を詳細に掘り下げる。
6.1. 分離
これらの次元の影響を明示的に探るために、各次元を分離するように設計された数学的タスクを実施する。以下のタスクを考える。
区間∆kを求めよ。ΣSi=1 ai・bi ∈ ∆k, (1)
ここで、
・ai, biは閉区間[−I, I]からランダムに選ばれた整数である。I ∈ Z+は整数の範囲を定義する。Iは問題の固有の難易度を表す。Iの値が大きいほど、より難しいタスクであることを示す。
・S ∈ Z+は合計項数である。Sは問題を解くために必要なステップ数を表す。Sの値が大きいほど、より難しいタスクであることを示す。
・結果の空間は、等確率のK個の区間∆1, ∆2, ..., ∆Kに分割される。K ∈ Z+はこれらの区間の数を表す。1/Kは正解の事前確率を表す。事前確率が低いほど、より難しいタスクであることを示す。
以下の実験では、GPT-3.5-Turboに基づいて各次元をそれぞれ分析する。GPT-3.5-Turboをケーススタディとして使用していることに注意されたい。他のバックボーンモデルに変更することもできる。相対的な性能向上は、我々の手法が達成できる最大の精度(40回のサンプリング)と単一のLLMクエリ(1回のサンプリング)の精度の差として測定される。結果は10回の実行の平均である。 6.2. 固有の難易度
特性1: 固有の難易度が上がるにつれて、利得は増加してから減少する。我々は、Iを10から400まで変化させながら、SとKの値を小さいものから大きいものまで4つのグループで一定に保つことで、固有の難易度を調査する。
図6(左)は、Iの増加に伴って性能向上が最初に上昇することを示しており、これは我々の手法が固有の難易度の上昇に伴って性能を大幅に向上させることができることを示している。最も顕著な利得はI = 100とI = 200で見られ、すべてのSとKの設定で一貫している。しかし、I = 400では、利得は減少し、極端なタスクの難易度の下では、モデルの推論能力を超えてしまい、我々の手法のリターンが逓減することを示唆している。
💡面白い... 難しくなると最初は性能上がるが、リターンが逓減する
https://scrapbox.io/files/663444a59353fd002410df8d.png
6.3. ステップ数
特性2.1:
利得はステップ数とともに増加する。我々は、Sを分離することでステップ数を分析する。Sを1から8まで調整し、IとKの値を小さいものから大きいものまで4つのグループで一定に保つ。図6(中)は、ステップ数の増加に伴って、パフォーマンスの向上が対応して増加することを示している。
https://scrapbox.io/files/6634457f6ae2c40024515c02.png
さらに、IとKが増加する(より高い難易度を示す)と、パフォーマンスの向上がより顕著になることがわかった。例えば、{I = 10, K = 2}では4%から18%の利得に対し、{I = 100, K = 4}では16%から48%の利得が見られる。
特性2.2:
サンプリングと投票は各ステップのパフォーマンスを向上させる。与えられたタスクの各ステップに対して、きめ細かい分析を行う。言語モデルに各ステップの結果を明示的に出力するよう促す。その後、各ステップでサンプリングと投票を利用して、そのステップの答えを導き出す。図7(左)は、各ステップが等しい固有の難易度を持っているにもかかわらず、前のステップからのエラーの蓄積により、ステップ数の増加とともに精度が低下することを示している。しかし、我々の手法は、ステップの増加に伴うパフォーマンスの低下を軽減する。
https://scrapbox.io/files/663445f99653a60024946b42.png
派生
特性2に基づいて、ステップごとのサンプリングと投票がパフォーマンスをさらに向上させることができると提案する。
ステップごとのサンプリングと投票は、最初にLLMにタスクを複数のステップに分解するよう促す。その後、最終結果を生成するために、複数ラウンドの反復を行う。各ラウンドでは、現在未処理のステップを選択し、サンプリングと投票を用いてそのステップの結果を決定するプロセスから始まる。次に、その結果を用いてタスクを更新する。この反復プロセスは、最後のステップが処理されるまで複数回繰り返される。ステップごとのサンプリングと投票の性能を評価するために、S = 8とK = 4に固定し、Iを100から400まで調整する。図7(中)は、単純なサンプリングと投票と比較して、ステップごとのサンプリングと投票がより大きな改善をもたらすことを示している。例えば、15%から42%の利得が見られ、固有の難易度とともに増加している。
https://scrapbox.io/files/663449333c96cf0024f19d8b.png
実際にステップ毎のサンプリングと投票を組むのは大変そう...
6.4. 事前確率
特性3
パフォーマンスは事前確率とともに増加する。事前確率がパフォーマンスに与える影響を調査するために、IとKを一定に保ちながら、パラメータKを調整する。Kは区間の数を表すため、事前確率は1/Kと定義される。Kを4から32まで変化させ、事前確率を1/4から1/32まで等価に変化させる。IとSの異なる構成で特徴付けられる4つの実験グループを通して、図6(右)に示すように、事前確率が増加するにつれて、パフォーマンスも増加することがわかった。
https://scrapbox.io/files/66344bb09353fd00241100ee.png
💡事前確率とは、例えば4択のタスクなら25%ということ。事前確率が低いほど、タスクの難易度が高くなる、つまり、正解を選ぶのがより難しくなる。
派生
特性3に基づいて、階層的なサンプリングと投票がパフォーマンスをさらに向上させることができると提案する。
パフォーマンスは事前確率に関連しているため、低確率のタスクを複数の高確率のサブタスクに分解し、階層的に取り組むことでパフォーマンスを向上させることができる。
💡この考え、最高じゃない?????
さらに、事前確率の異なるサブタスクに対して、異なるモデルを使用することができる。また、より簡単で高確率のサブタスクにはより簡単で安価なモデルを使用することで、コストを節約することができる。
我々の実験では、K=32の問題を解くことがタスクである。ホモジニアス結合実験ではGPT-3.5-Turboを使用し、ヘテロジニアス結合実験ではGPT-3.5-TurboとGPT-4を使用する。結果を図7(右)に示す。 ホモジニアス結合実験では、階層的手法を用いることで、まずK=8で中間的な答えを得て、次にK=32で中間的な答えで特定された区間に焦点を当てて解を求める。この方法では、パフォーマンスが21%から31%に向上し、階層的手法がパフォーマンスをさらに向上させることができることを示している。
💡 やばいな、この知見...
ヘテロジニアス結合実験では、GPT-3.5-TurboをK=8で中間的な答えを生成するために使用し、その後GPT-4をK=32で最終的な答えを求めるために使用する。図7(右)では、K=32でGPT-4の結果と比較して、階層的手法はパフォーマンスを35%から47%に向上させており、問題解決の対応するレベルで異なるLLMを展開することで、コスト効率よくパフォーマンスを向上させることができることを示唆している。
https://scrapbox.io/files/66345e0750d150002396e4c0.png
7. 結論と今後の課題
本論文では、より多くのエージェントこそが必要なすべてであること、すなわち、インスタンス化されたLLMエージェントを単純に追加することが、CoTパイプライン、マルチエージェント協調フレームワークなどの複雑な手法に煩わされることなく、複雑なタスクの処理においてより良いLLMパフォーマンスを得るために必要なすべてであることを報告した。我々は、いつこの「スケーリング則」が成り立ち、どのようにその発生を促進するかを理解するために、文献上初の包括的な研究を行った。 結果は、エージェントをインスタンス化するための我々のシンプルなサンプリングと投票の手法が、アンサンブルサイズを増やすことで、LLMの性能を一般的に向上させることができることを示している。重要なことに、この手法は異なる既存の手法に対して直交しており、それらと組み合わせることでさらなる改善につながる可能性がある。
さらに、性能向上はタスクの難易度に影響されることを確認した。この相関関係を探るために、タスクの難易度の3つの次元である固有の難易度、推論ステップの長さ、正解の事前確率を分離して分析した。その結果、1)固有の難易度が上がるにつれて、性能向上は増加してから減少すること、2)ステップ数とともに性能向上が増加すること、3)事前確率とともにパフォーマンスが増加することがわかった。これらの特性に基づいて、「より多くのエージェント」の有効性を高める方法も開発した。
エージェントの数を増やしても、各入力は同じままであることを考えると、サンプリング段階は最適化してコストを削減することができる。それでも、複数のLLM呼び出しを必要とする研究では、このようなコストの増大の課題が一般的に存在する(Wang et al.、2023b; Du et al.、2023)。最適化は今後の課題とする。
影響に関する記述
本論文は、大規模言語モデル(LLM)の性能を向上させるためのシンプルな手法を紹介している。提案手法は、様々なタスクにおけるLLMの有効性を向上させることを目的としているが、潜在的なリスクを認識する必要がある。LLMは時として、もっともらしいが事実と異なる、あるいは無意味な出力を生成することがある。このような幻覚は、意思決定プロセスの誤導やバイアスの伝播につながる可能性がある。これらの懸念は、情報の正確性と信頼性が最も重要な重大な意思決定シナリオにおいて特に深刻である。これらのリスクに対する適切な保護措置なしにLLMを広く採用すると、これらの問題がさらに悪化する可能性がある。したがって、これらの強力なモデルの展開が責任あるものであり、有益なものであることを確実にするために、LLMの幻覚の潜在的な悪影響を軽減するメカニズムの開発を継続することが極めて重要である。